%	\chapter{回归分析}
	\section{一元线性回归模型}
	在实际生活中，有两种变量关系。一种是完全确定的，比如圆面积与圆半径之间的函数关系；一种是随机的，但又不完全是独立的，比如人的身高和体重。一般来讲身高高的人体重的确可能会更高一些，但并不完全是这样。这种关系在统计上叫做相关关系。
	
	在一元线性回归中，考虑自变量$x$，其值是精确可控或精确可测量的；因变量$y$，是随机变量，可以给出观察值。$y$的观察值由两部分组成：一部分是随$x$的变化而呈现线性变化的趋势，用$y=\beta_0+\beta_1x$来表示；另一部分就是其他随机因素影响的总和。通常，我们会假定$\epsilon_i\sim N(0,\sigma^2)$独立同分布。所以，线性回归的模型可以写为
	\begin{equation}
	\begin{cases}
	y_i=\beta_0+\beta_1x_i+\epsilon_i,\quad i=1,\cdots,n\\
	\epsilon_i \sim N(0,\sigma^2),\quad \text{独立同分布}
	\end{cases}
	\end{equation}
	其中$\beta_0$和$\beta_1$称为回归系数。
	
	在期望意义下，
	\begin{equation}
	Ey=\beta_0+\beta_1 x
	\end{equation}
	这就是$y$关于$x$的一元线性回归函数。也就是说，平均而言，$y$与$x$的关系就是线性的。
	
	\begin{definition}[一元线性回归方程]
		记$\hat{\beta}_0$和$\hat{\beta}_1$为$\beta_0$和$\beta_1$的估计，则称
		\begin{equation}
		\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x
		\end{equation}
		为$y$关于$x$的一元线性回归方程。
	\end{definition}
	
	我们所要做的，就是在这个模型下，用各种估计、检验的方法，定出回归系数，给出误差分布，从而找到因变量和自变量之间的关系。
	
	\section{最小二乘法估计}
	我们要求观察值$y_i$与其期望$\beta_0+\beta_1x_i$之间的偏离达到最小，也就是说定出估计值$\hat{\beta}_0$和$\hat{\beta}_1$使得
	\begin{equation}
	Q(\beta_0,\beta_1)=\sum_{i=1}^{n}(y_i-\beta_0-\beta_1x_i)^2
	\end{equation}
	达到最小值。此时，有
	\begin{equation}
	\begin{aligned}
	\frac{\partial Q}{\partial\beta_0}&=-2\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)=0\\
	\frac{\partial Q}{\partial\beta_1}&=-2\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)x_i=0
	\end{aligned}
	\end{equation}
	称此方程为正则方程。经过整理可得
	\begin{equation}
	\begin{aligned}
	n\beta_0+n\bar{x}\beta_1&=n\bar{y}\\
	n\bar{x}\beta_0+\sum_{i=1}^n x_i^2\beta_1&=\sum_{i=1}^n x_iy_i
	\end{aligned}
	\end{equation}
	从而有
	\begin{equation}
	\hat{\beta}_0=\bar{y}-\beta_1\bar{x}
	\end{equation}
	代回可得
	\begin{equation}
	\left(\sum_{i=1}^{n}x_i^2-n\bar{x}^2\right)\beta_1=\sum_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}
	\end{equation}
	从而
	\begin{equation}
	\hat{\beta}_1=\frac{\sum_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}}{\sum_{i=1}^{n}x_i^2-n\bar{x}^2}
	\end{equation}
	为了方便，约定
	\begin{equation}
	\begin{aligned}
	l_{xx}&=\sum_{i=1}^{n}x_i^2-n\bar{x}^2=\sum_{i=1}^n x_i^2-\frac{1}{n}\left(\sum_{i=1}^n x_i\right)^2\\
	l_{xy}&=\sum_{i=1}^n x_iy_i-n\bar{x}\bar{y}=\sum_{i=1}^{n}x_iy_i-\frac{1}{n}\left(\sum_{i=1}^n x_i\right)\left(\sum_{i=1}^{n}y_i\right)
	\end{aligned}
	\end{equation}
	只要$x_1,\cdots,x_n$不全相等，就有
	\begin{equation}
	\begin{cases}
	\hat{\beta}_1=l_{xy}/l_{xx}\\
	\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}
	\end{cases}
	\end{equation}
	
	根据前面的计算，我们得到了$\beta_0$和$\beta_1$的最小二乘估计。我们称$\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_i$为在$x=x_i$处的拟合值，称$e_i=y_i-\hat{y}_i$为残差，称$S_E=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$为残差平方和。
	
	最小二乘估计有如下性质：
	\begin{theorem}[最小二乘估计的性质]
		在模型
		\begin{equation}
		\begin{cases}
		y_i=\beta_0+\beta_1x_i+\epsilon_i,\quad i=1,\cdots,n\\
		\epsilon_i \sim N(0,\sigma^2),\quad \text{独立同分布}
		\end{cases}
		\end{equation}
		下，$\hat{\beta}_0$和$\hat{\beta}_1$分别是最小二乘估计，我们有
		\begin{enumerate}
			\item 统计量$\hat{\beta}_1$服从
			\begin{equation}
			\hat{\beta}_1\sim N\left(\beta_1,\frac{\sigma^2}{l_{xx}}\right)
			\end{equation}
			从而其为$\beta_1$的无偏估计。
			
			\item 统计量$\hat{\beta}_0$服从
			\begin{equation}
			\hat{\beta}_0\sim N\left(\beta_0,\left(\frac{1}{n}+\frac{\bar{x}^2}{l_{xx}}\right)\sigma^2\right)
			\end{equation}
			从而其为$\beta_0$的无偏估计。
			
			\item 协方差
			\begin{equation}
			Cov(\hat{\beta}_0,\hat{\beta}_1)=E(\hat{\beta}_0-E\hat{\beta}_0)(\hat{\beta}_1-E\hat{\beta}_1)=-\frac{\bar{x}}{l_{xx}}\sigma^2
			\end{equation}
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
			\item 注意到
			\begin{equation}
			\hat{\beta}_1=\frac{l_{xy}}{l_{xx}}=\sum_{i=1}^{n}\frac{x_i-\bar{x}}{l_{xx}}y_i
			\end{equation}
			从而$\hat{\beta}_1$是独立随机变量$y_1,\cdots,y_n$的线性组合，这些随机变量全都服从正态分布。从而
			\begin{equation}
			\begin{aligned}
			E\hat{\beta}_1&=\sum_{i=1}^{n}\frac{x_i-\bar{x}}{l_{xx}}Ey_i=\sum_{i=1}^{n}\frac{x_i-\bar{x}}{l_{xx}}(\beta_0+\beta_1x_i)=\beta_1\\
			Var\hat{\beta}_1&=\sum_{i=1}^{n}\left(\frac{x_i-\bar{x}}{l_{xx}}\right)^2 Vary_i=\frac{\sigma^2}{l_{xx}}
			\end{aligned}
			\end{equation}
			
			\item 同理可得
			\begin{equation}
			\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}=\sum_{i=1}^{n}\left(\frac{1}{n}-\frac{x_i-\bar{x}}{l_{xx}}\bar{x}\right)y_i
			\end{equation}
			因此
			\begin{equation}
			\begin{aligned}
			E\hat{\beta}_0&=E\bar{y}-\bar{x}E\hat{\beta}_1=\beta_0\\
			Var\hat{\beta}_0&=\sum_{i=1}^{n}\left(\frac{1}{n}-\frac{x_i-\bar{x}}{l_{xx}}\bar{x}\right)^2Vary_i=\left(\frac{1}{n}+\frac{\bar{x}^2}{l_{xx}}\right)\sigma^2
			\end{aligned}
			\end{equation}
			
			\item 考虑
			\begin{equation}
			Cov(\hat{\beta}_0,\hat{\beta}_1)=Cov\left(\sum_{i=1}^{n}\left(\frac{1}{n}-\frac{x_i-\bar{x}}{l_{xx}}\bar{x}\right)y_i,\sum_{j=1}^{n}\frac{x_j-\bar{x}}{l_{xx}}y_j\right)
			\end{equation}
			注意到，对于独立随机变量$Y_1,\cdots,Y_n$以及任意随机变量$Z$而言，协方差具有线性性
			\begin{equation}
			\begin{aligned}
			Cov\left(\sum_{i=1}^{n}c_iY_i,Z\right)&=E\left(\sum_{i=1}^{n}c_i(Y_i-EY_i)\right)(Z-EZ)\\
			&=\sum_{i=1}^{n}E(c_iY_i-c_iEY_i)(Z-EZ)=\sum_{i=1}^{n}c_iCov(Y_i,Z)
			\end{aligned}
			\end{equation}
			其中$c_1,\cdots,c_n$是任意常数。因而
			\begin{equation}
			Cov(\hat{\beta}_0,\hat{\beta}_1)=\sum_{i=1}^{n}\sum_{j=1}^{n}\left(\frac{1}{n}-\frac{x_i-\bar{x}}{l_{xx}}\bar{x}\right)\frac{x_j-\bar{x}}{l_{xx}}Cov(y_i,y_j)
			\end{equation}
			由于$y_1,\cdots,y_n$独立，故
			\begin{equation}
			Cov(y_i,y_j)=Vary_i\delta_{ij}=\sigma^2\delta_{ij}
			\end{equation}
			所以
			\begin{equation}
			\begin{aligned}
			Cov(\hat{\beta}_0,\hat{\beta}_1)&=\sum_{i=1}^{n}\left(\frac{1}{n}-\frac{x_i-\bar{x}}{l_{xx}}\bar{x}\right)\frac{x_i-\bar{x}}{l_{xx}}\sigma^2=\sum_{i=1}^{n}\frac{x_i-\bar{x}}{nl_{xx}}-\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2\bar{x}}{l_{xx}^2}\sigma^2\\
			&=-\sum_{i=1}^{n}\frac{(x_i^2-2x_i\bar{x}+\bar{x}^2)\bar{x}}{l_{xx}^2}\sigma^2=-\frac{\sum_{i=1}^{n}x_i^2-n\bar{x}^2}{l_{xx}^2}\sigma^2=-\frac{\bar{x}}{l_{xx}}\sigma^2
			\end{aligned}
			\end{equation}
		\end{enumerate}\qed
	\end{proof}

	\begin{theorem}[残差平方和的性质]
		在模型
		\begin{equation}
		\begin{cases}
		y_i=\beta_0+\beta_1x_i+\epsilon_i,\quad i=1,\cdots,n\\
		\epsilon_i \sim N(0,\sigma^2),\quad \text{独立同分布}
		\end{cases}
		\end{equation}
		下，$\hat{\beta}_0$和$\hat{\beta}_1$分别是最小二乘估计。记残差平方和为
		\begin{equation}
		S_E=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2
		\end{equation}
		我们有
		\begin{enumerate}
			\item 残差平方和服从
			\begin{equation}
			\frac{S_E}{\sigma^2}\sim\chi^2(n-2)
			\end{equation}
			\item $S_E,\ \hat{\beta}_1,\ \bar{y}$相互独立。
			\item \begin{equation}
			\hat{\sigma}^2=\frac{S_E}{n-2}
			\end{equation}
			是$\sigma^2$的无偏估计。
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
			\item 类似于证明样本方差$(n-1)s^2\sim\chi^2(n-1)$的套路，考虑矩阵$T$使得
			\begin{equation}
			\vec{z}=T\vec{y},\quad T_{n-1,i}=\frac{x_i-\bar{x}}{\sqrt{l_{xx}}}y_i,\quad T_{ni}=\frac{1}{\sqrt{n}},\quad i=1,\cdots,n
			\end{equation}
			此外，
			\begin{equation}
			\begin{cases}
			\sum_{j=1}^{n}T_{ij}=0,\quad i=1,\cdots,n-2\\ 
			\sum_{j=1}^{n}T_{ij}^2=1,\quad i=1,\cdots,n-2\\
			\sum_{j=1}^{n}T_{ij}x_j=0,\quad i=1,\cdots,n-2\\
			\sum_{j=1}^{n}T_{ij}T_{kj}=0,\quad i\neq k,\ i,k=1,\cdots,n-2
			\end{cases}
			\end{equation}
			
			矩阵是保距离的：
			\begin{equation}
			\sum_{i=1}^{n}z_i^2=\sum_{i=1}^{n}y_i^2
			\end{equation}
			特别地，
			\begin{equation}\begin{aligned}
			z_{n}&=\sum_{i=1}^{n}T_{ni}y_i=\frac{1}{\sqrt{n}}\sum_{i=1}^{n}y_i\\
			z_{n-1}&=\sum_{i=1}^{n}T_{n-1,i}y_i=\sum_{i=1}^{n}\frac{x_i-\bar{x}}{\sqrt{l_{xx}}}y_i
			\end{aligned}\end{equation}
			
			另一方面，正交矩阵是满秩的，因此$z_1,\cdots,z_n$是独立的。
			
			而残差平方和
			\begin{equation}
			\begin{aligned}
			S_E&=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2=\sum_{i=1}^{n}(y_i-\bar{y}-\hat{\beta}_1(x_i-\bar{x}))^2\\
			&=\sum_{i=1}^{n}\left((y_i-\bar{y})^2-2\hat{\beta}_1(x_i-\bar{x})(y_i-\bar{y})+\hat{\beta}_1^2(x_i-\bar{x})^2\right)\\
			&=\sum_{i=1}^{n}y_i^2-n\bar{y}^2-2\frac{l_{xy}^2}{l_{xx}}+\frac{l_{xy}^2}{l_{xx}}\\
			&=\sum_{i=1}^{n}y_i^2-\left(\frac{1}{\sqrt{n}}\sum_{i=1}^{n}y_i\right)^2-\left(\sum_{i=1}^{n}\frac{x_i-\bar{x}}{\sqrt{l_{xx}}}y_i\right)^2\\
			&=\sum_{i=1}^{n}z_i^2-z_{n}^2-z_{n-1}^2=\sum_{i=1}^{n-2}z_i^2
			\end{aligned}
			\end{equation}
			这表明$S_E$是由$n-2$个独立服从正态分布的随机变量$z_1,\cdots,z_{n-2}$的平方和组成的。根据矩阵$T$的选取方法，$z_i\sim N(0,\sigma^2),\ i=1,\cdots,n-2$。所以，最终我们有
			\begin{equation}
			\frac{S_E}{\sigma^2}\sim\chi^2(n-2)
			\end{equation}
			
			\item 显然$\bar{y}$是$z_n$的函数，而$\hat{\beta}_1$是$z_{n-1}$的函数，$S_E$是$z_1,\cdots,z_{n-2}$的函数。因而它们是独立的。
			
			\item 根据卡方分布的性质，我们有
			\begin{equation}
			E\frac{S_E}{\sigma^2}=n-2
			\end{equation}
			从而
			\begin{equation}
			E\frac{S_E}{n-2}=\sigma^2
			\end{equation}
		\end{enumerate}\qed
	\end{proof}
	从第二个命题来看，按照自由度的说法，$\bar{y}$或者说纵截距$\beta_0$占据了一个自由度，斜率$\beta_1$占据了一个自由度，剩下的$n-2$个自由度就归残差平方和了。
	
	\section{回归方程的显著性检验}
	只要给出了几组数据，我们一般都能算出回归方程。但是，只有当这些数据背后的总体符合线性回归的模型时，回归方程才有意义。从图像上看，一堆散点如果看上去就分布在一条直线上，那我们就认为方程有意义。
	
	现在我们需要用假设检验的方法来对回归方程是否有意义来检验。原命题$H_0:\beta_1=0$。如果原命题正确，就说明$y$和$x$根本就无关。
	
	检验的统计量有三种选择：
	\begin{enumerate}
		\item 类似于方差分析中所作的，用回归平方和$S_R$与剩余平方和$S_E$的比
	\begin{equation}
	F=\frac{S_R}{S_E/(n-2)}=\frac{\sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2}{\left(\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\right)/(n-2)}\sim F(1,n-2)
	\end{equation}
	来作为统计量。如果回归平方和应该比剩余平方和大得多，那么相关性就显著。所以拒绝域具有$W=\{(y_1,\cdots,y_n)|F\geq c\}$的形式；
	
	\item 用$\hat{\beta}_1$和$\hat{\sigma}$来构造统计量。如果线性系数比随机方差大得多，那么相关性就够显著。选取
	\begin{equation}
	t=\frac{\hat{\beta}_1}{\hat{\sigma}/\sqrt{l_{xx}}}=\frac{\hat{\beta}_1/\sqrt{l_{xx}}}{\sqrt{S_E/(n-2)}}\sim t(n-2)
	\end{equation}
	作为统计量，拒绝域具有$W=\{(y_1,\cdots,y_n)|t\geq c\}$的形式。事实上，$t^2=F$，因而这种统计量和第一种是等价的。
	
	
	\item 用相关系数
	\begin{equation}
	r=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2\sum_{i=1}^{n}(y_i-\bar{y})^2}}=\frac{l_{xy}}{\sqrt{l_{xx}l_{yy}}}
	\end{equation}
	相关系数大，那么相关性就显著。所以拒绝域具有$W=\{(y_1,\cdots,y_n)|r\geq c\}$的形式。
	
	事实上，由于
	\begin{equation}
	r^2=\frac{F}{F+n-2}
	\end{equation}
	所以$r^2$也和第一种统计量是等价的。作为数值解，在$\alpha=0.05$的水平上，七组数据算出来$0.67$的相关系数，就能拒绝原假设$H_0:\beta_1=0$。
	\end{enumerate}

	\section{利用回归方程作预测}
	我们现在想预测$x=x_0$处$y$的取值。为此，我们就要求出$\hat{y}=\hat{\beta}_0+\hat{\beta}_1 x_0$的分布。我们已经计算过
	\begin{equation}
	\hat{\beta}_0\sim N\left(\beta_0,\left(\frac{1}{n}+\frac{\bar{x}^2}{l_{xx}}\right)\sigma^2\right),\quad \hat{\beta}_1\sim N\left(\beta_1,\frac{\sigma^2}{l_{xx}}\right)
	\end{equation}
	所以$\hat{y}$的期望为
	\begin{equation}
	E\hat{y}=\beta_0+\beta_1 x_0
	\end{equation}
	其方差为
	\begin{equation}
	\begin{aligned}
	Var\hat{y}&=E\hat{y}^2-E^2\hat{y}=E(\hat{\beta}_0+\hat{\beta}_1 x_0)^2-(\beta_0+\beta_1 x_0)^2\\
	&=E\hat{\beta}_0^2+2x_0E\hat{\beta}_0\hat{\beta}_1+x_0^2E\hat{\beta}_1^2-(\beta_0+\beta_1 x_0)^2
	\end{aligned}
	\end{equation}
	其中，
	\begin{equation}
	\begin{aligned}
	E\hat{\beta}_0^2& =Var\hat{\beta}_0+E^2\hat{\beta}_0=\left(\frac{1}{n}+\frac{\bar{x}^2}{l_{xx}}\right)\sigma^2+\beta_0^2\\
	E\hat{\beta}_0\hat{\beta}_1&=Cov(\hat{\beta}_0,\hat{\beta}_1)+E\hat{\beta}_0E\hat{\beta}_1=-\frac{\bar{x}}{l_{xx}}\sigma^2+\beta_0\beta_1\\
	E\hat{\beta}_1^2&=Var\hat{\beta}_1+E^2\hat{\beta}_1=\frac{\sigma^2}{l_{xx}}+\beta_1
	\end{aligned}
	\end{equation}
	可得
	\begin{equation}
	Var\hat{y}=\left(\frac{1}{n}+\frac{(\bar{x}-x_0)^2}{l_{xx}}\right)\sigma^2
	\end{equation}
	最终$\hat{y}$的分布是
	\begin{equation}
	\hat{y}\sim N\left(\beta_0+\beta_1x_0,\left(\frac{1}{n}+\frac{(\bar{x}-x_0)^2}{l_{xx}}\right)\sigma^2\right)
	\end{equation}
	因此，$\hat{y}$是随机变量$y$之期望$Ey$的无偏估计。然而，随机变量$y$的值与预测值$\hat{y}$之间总有差异。我们希望在给定的$1-\alpha$概率控制之下，得到绝对偏差$|y-\hat{y}|$的上限$\delta$。换句话说，我们希望
	\begin{equation}
	P(\hat{y}-\delta\leq y \leq \hat{y}+\delta)\leq 1-\alpha
	\end{equation}
	我们称$[\hat{y}-\delta,\hat{y}+\delta]$为$y_0$的概率为$1-\alpha$预测区间。为此，注意到以下事实
	\begin{enumerate}
		\item $y$与$y_1,\cdots,y_n$是独立的，因而与$\hat{y}$是独立的，从而有
		\begin{equation}
		y-\hat{y}\sim N\left(0,\left(1+\frac{1}{n}+\frac{(\bar{x}-x_0)^2}{l_{xx}}\right)\sigma^2\right)
		\end{equation}
		\item 先前已经证过$S_E/\sigma^2\sim\chi^2(n-2)$
		\item 先前已经证过$S_E,\hat{\beta}_1,\bar{y}$相互独立，因而$S_E$与$\hat{\beta}_1$及$\bar{y}$的线性组合$\hat{y}$也独立。
	\end{enumerate}
	由此，提示我们可以构造出服从$t$分布的变量
	\begin{equation}
	\tau=\left.\left(\frac{y-\hat{y}}{\sigma\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{l_{xx}}}}\right)\right/\sqrt{\frac{S_{E}}{\sigma^2(n-2)}}\sim t(n-2)
	\end{equation}
	考虑$\hat{\sigma}^2=S_E/(n-2)$是$S_E$的无偏估计，有
	\begin{equation}
	\tau=\frac{y-\hat{y}}{\hat{\sigma}\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{l_{xx}}}}\sim t(n-2)
	\end{equation}
	因而要让$|y-\hat{y}|\leq\delta$，就是让
	\begin{equation}
	P(A)=P\left(|\tau|\leq\frac{\delta}{\hat{\sigma}\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{l_{xx}}}}\right)=1-\alpha
	\end{equation}
	于是即可查表得到$\delta$的范围。
	
	根据数值计算的结果，我们发现如果$x_0$不在$x_1,\cdots,x_n$中间时，给定$\alpha$下，偏差上限$\delta$就会急剧增大，因此用线性回归进行外推时要小心。另外，如果$x_1,\cdots,x_n$集中在一处或者几处，也会导致$\delta$偏大；相反如果它们分布得比较分散，偏差上限就会较小，从而$\hat{y}$具有较高的可信度。
	
	\section{多元线性回归}
	考虑模型
	\begin{equation}
	\begin{cases}
	y_i=\beta_0+\sum_{j=1}^{p}\beta_j x_{ij}+\epsilon_i,\quad i=1,\cdots,n\\
	\epsilon_i\sim N(0,\sigma^2),\quad \text{独立同分布}
	\end{cases}
	\end{equation}
	令
	\begin{equation}
	Q(\beta_0,\cdots,\beta_p)=\sum_{i=1}^{n}\left(y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij}\right)^2
	\end{equation}
	要使得$Q$达到最小值，有
	\begin{equation}\begin{aligned}
	\frac{\partial Q}{\partial\beta_0}&=-2\sum_{i=1}^{n}\left(y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij}\right)=0\\
	\frac{\partial Q}{\partial\beta_k}&=-2\sum_{i=1}^{n}x_{ik}\left(y_i-\beta_0-\sum_{j=1}^{p}\beta_{j}x_{ij}\right)=0,\quad k=1,\cdots,p
	\end{aligned}\end{equation}
	此即正则方程。由第零个方程可解得
	\begin{equation}
	\hat{\beta}_0=\frac{1}{n}\left(\sum_{i=1}^{n}y_i-\sum_{j=1}^{p}\beta_{j}\sum_{i=1}^{n}x_{ij}\right)=\bar{y}-\sum_{j=1}^{p}\hat{\beta}_j \bar{x}_{\cdot j}
	\end{equation}
	这实际上就是截距。这意味着无论如何，回归的超平面总会经过$(\bar{x}_{\cdot j},\bar{y})$这一点。
	
	把$\hat{\beta}_0$代入第$k$个方程可得
	\begin{equation}
	\sum_{i=1}^{n}(x_{ik}-\bar{x}_{\cdot k}+\bar{x}_{\cdot k}) \left(y_i-\bar{y}-\sum_{j=1}^{p}\hat{\beta}_j(x_{ij}-\bar{x}_{\cdot j})\right)=0
	\end{equation}
	也就是
	\begin{equation}
	\sum_{i=1}^{n}\sum_{j=1}^{p}(x_{ij}-\bar{x}_{\cdot j})(x_{ik}-\bar{x}_{\cdot k})\hat{\beta}_{j} =\sum_{i=1}^{n}(x_{ik}-\bar{x}_{\cdot k})(y_i-\bar{y}), \quad k=1,\cdots,p
	\end{equation}
	这是一个$p$元线性方程组。令
	\begin{equation}
	L_{kj}=\sum_{i=1}^{n}(x_{ij}-\bar{x}_{\cdot j})(x_{ik}-\bar{x}_{\cdot k}),\quad X_{ki}=x_{ik}-\bar{x}_{\cdot k},\quad Y_{i}=y_i-\bar{y},\quad \hat{B}_{j}=\hat{\beta}_j
	\end{equation}
	则事实上$L_{kj}$是$p\times p$矩阵，$X_{ki}$是$p\times n$矩阵，$Y_{i}$是$n$维列向量，$\hat{B}_{j}$是$p$维列向量。从而将方程组写成矩阵形式：
	\begin{equation}
	L\hat{B}=XY
	\end{equation}
	从而
	\begin{equation}
	\hat{B}=L^{-1}XY
	\end{equation}
	至此，我们求出了回归方程，并可以得到与一元线性回归中相同的性质：
	\begin{theorem}[多元线性回归的性质]
		考虑模型
		\begin{equation}
		\begin{cases}
		y_i=\beta_0+\sum_{j=1}^{p}\beta_j x_{ij}+\epsilon_i,\quad i=1,\cdots,n\\
		\epsilon_i\sim N(0,\sigma^2),\quad \text{独立同分布}
		\end{cases}
		\end{equation}
		设$\hat{\beta}_0,\ \hat{\beta}_k,\ k=1,\cdots,p$分别是$\beta_0,\ \beta_k,\ k=1,\cdots,p$的最小二乘估计，则
		\begin{enumerate}
			\item $\hat{\beta}_0$和$\hat{\beta}_k,\ k=1,\cdots,p$分别是$\beta_0$和$\beta_k,\ k=1,\cdots,p$的无偏估计
			\item $\hat{\beta}_0$与任意一个$\hat{\beta}_k,k=1,\cdots,p$都不相关，也就是
			\begin{equation}
			Cov(\hat{\beta}_0,\hat{\beta}_k)=0,\ k=1,\cdots,p
			\end{equation}
			\item $\hat{\beta}_0$的方差是
			\begin{equation}
			Var\hat{\beta}_0=\frac{\sigma^2}{n}
			\end{equation}
			\item 记$C=L^{-1}$，则
			\begin{equation}
			Cov(\hat{\beta}_j,\hat{\beta}_k)=c_{jk}\sigma^2,\quad j,k=1,\cdots,p
			\end{equation}
			特别地，有
			\begin{equation}
			Var(\hat{\beta}_k)=c_{kk}\sigma^2,\quad k=1,\cdots,p
			\end{equation}
		\end{enumerate}
	\end{theorem}
	第四条性质揭示了$L$矩阵或者$C$矩阵的重要性，因而我们一般需要计算出$L$矩阵，而不仅仅用消元法来解正则方程。
	
	\begin{theorem}[残差平方和的性质]
		对于残差
		\begin{equation}
		e_i=y_i-\hat{\beta}_0-\sum_{j=1}^{p}\hat{\beta}_j x_{ij},\quad i=1,\cdots,n
		\end{equation}
		而言，残差平方和
		\begin{equation}
		S_E=\sum_{i=1}^{n}e_i=\sum_{i=1}^{n}\left(y_i-\hat{\beta}_0-\sum_{j=1}^{p}\hat{\beta}_j x_{ij}\right)
		\end{equation}
		其有如下性质：
		\begin{enumerate}
			\item 残差平方和服从卡方分布
			\begin{equation}
			\frac{S_E}{\sigma^2}\sim \chi^2(n-p-1)
			\end{equation}
			\item $S_E/(n-p-1)$是$\sigma^2$的无偏估计
		\end{enumerate}
	\end{theorem}
	\section{可化为一元线性回归的曲线回归}
	某些含有两个参数的曲线，可以化为一元线性回归。有时，只要通过对$x$换元即可，这时的线性回归和我们之前分析的模型实际上并没有区别；但有时还需要对$y$进行换元，这时就需要考虑模型是否成立的问题了：毕竟$y$是包含了一个随机变量$\epsilon$的，换元前后很可能就有不符合正态分布了。不过我们一般不会考虑这个问题，毕竟到底是换元前的$y$符合正态分布，还是换元后的$y'$符合正态分布，其实并不好说，没有理由认为哪一种就更优越。
	
	某些含有多个参数的曲线，比如说多项式，则可以化为多元线性回归。
%\part{机器学习}